边缘加强的超高清视频质量评估

您所在的位置:网站首页 used to be和used to的区别 边缘加强的超高清视频质量评估

边缘加强的超高清视频质量评估

2023-04-15 15:40| 来源: 网络整理| 查看: 265

由于社交媒体的快速发展,整个世界几乎被数字视频所包围。同时,数字视频也对日常生活产生了巨大影响。图像和视频的视觉质量与用户的体验密切相关,是决定计算机视觉应用的重要因素之一(方玉明等,2021)。随着终端用户对视频质量要求的不断提高,视频质量评估(video quality assessment,VQA)已成为视频服务供应商关注的主要问题。众所周知,视频的平均主观分数(mean opinion score, MOS)的收集难度大、成本高。随着深度学习在各领域的成功应用,利用深度神经网络模拟人眼的视觉特性已成为VQA领域的一个重要研究课题。

据Cisco的报告,2017年有75 % 的IP(internet protocol)流量用于视频,到2022年这一比例将会增长到82 % (Cisco, 2018)。这种增长趋势主要归因于各种新开发的视频应用程序以及用户沉浸式体验需求。同时,消费者对视频质量的要求越来越高。一种新的4 K格式(3 840 × 2 160像素或2 160 p)已被ITU-R BT.2020-2定义为超高清(ultra high definition,UHD)电视标准(ITU-R, 2015)。如今,随着大型显示器分辨率的增长、视频点播提供商(如YouTube、Netflix和亚马逊)能够提供4 K超高清视频内容,并且视频的细节和清晰度令人印象深刻(Sinno和Bovik,2019;Rafael等,2017)。UHD视频的主要优点侧重于质量,可以使用主观或客观方法进行评测。主观方法就是通过直接询问观众对其感知质量的意见。相比之下,客观方法考虑神经网络或数学模型来自动化评估视频质量。视频质量是UHD引入的主要驱动力。然而,至今用于对野生UHD视频进行质量评估的方法未见报道(Sinno和Bovik,2019)。

一般来说,视频有两种不同类型的失真。一种是由某些后处理操作(如快速衰落、白噪声、压缩和高斯模糊等)人为引起的合成失真,这类失真明确定义了畸变的类型。例如,来自AVTVQDB-UHD-1(Rao等,2019)、YouTube-UGC(Wang等,2019)、CSIQ(Vu和Chandler,2014)、LIVE-VQA(Seshadrinathan等,2010)和相关数据集(Berger等,2015;van Wallendael等,2016)的视频是合成失真的结果。另一种是相机设备在捕获、处理和存储过程中固有的真实失真。DVL2021(Xing等,2022)、LIVE-VQC(Sinno和Bovik,2019)、KoNViD-1K(Hosu等,2017)和UVG-UHD视频集(Mercat等,2020)的每一个视频都是真实失真的,没有经过任何手动的后处理。真实失真的概念已在一些研究(Zhang等,2020, 2021;Sinno和Bovik,2019)中正式引入。随着深度学习的成功,大多数VQA算法通常需要在大量主观视频质量数据集上进行训练,以获得准确的模型,能够反映或复制人类的判断(Peng等,2019;Yuan和Wang,2019;Banitalebi-Dehkordi等,2021)。为此,研究人员已为VQA研究收集了一些视频数据集。例如,CSIQ数据集(Vu和Chandler,2014)包含12个原始的高质量视频及其具有6种失真类型的失真版本。CSIQ只是一个合成失真的数据集,视频序列不是UHD。LIVE VQA(Seshadrinathan等,2010)包括10个受到4种失真类型影响的原始视频,即MPEG-2压缩、H.264压缩、受IP影响的H.264比特流和无线数据包丢失。此数据集也不属于真实失真的数据集,因此在应用于真实的VQA场景时会导致效率低。AVTVQDB-UHD-1(Rao等,2019)使用3种不同的视频编解码器进行编码,即H.264、HEVC(high efficiency video coding,HEVC)和VP9,然后对这些压缩和降级视频进行测试MOS,其MOS的分布区间为[1.0,5.0]。

作为UHD-VQA领域的首次尝试,Xing等人(2022)开发了第1个用于研究真实失真的UHD-VQA野生视频数据集(命名为DVL2021)。DVL2021共包含206个4 K UHD视频,标注有5等级MOS。每个视频序列固定为50帧/s,以10位深度和4 ∶ 2 ∶ 0 YUV格式存储,持续时间为10 s。在收集DVL2021时,考虑了各种类型的拍摄、不同的场景以及空间/时间信息。根据ITU-R BT.500-13(ITU-R. 2012)推荐的电视图像质量主观评价方法,所有视频序列均由32名受试者评测,在DVL2021上测试5种主流VQA方法。基准结果表明,数据集为UHD视频的质量评估提供了有价值的材料。

首先,由于分辨率高以及大量的位流,采用众包方法收集UHD视频质量数据集不切实际。主观质量评估需要严格的实验室环境。由于这些限制,DVL2021成为国际上第1个野生UHD-VQA数据集,但规模相对较小(仅206个样本)。其次,从客观质量评估来看,由于缺乏大规模数据集,现有的深度网络模型在评估野生UHD视频时表现不佳。因此,为野生UHD-VQA设计有效的深度神经网络是一个一直未解决且至关重要的问题。由于超高清视频分辨率高、边缘细节清晰度高,因此在边缘处更容易引起失真,所以本文提出的边缘加强方法能特别适用超高清视频的质量评估。同时由于引入了内容依赖和时域迟滞特性,因此,提出的方法也同时适用其他野生视频的质量评估。

本文提出了一种适用UHD视频的无参考VQA(no-reference video quality assessment,NR-VQA)方法,该方法基于人类视觉系统(human visual system,HVS)3个显著特征进行建模,包括边缘掩蔽、内容依赖和时间记忆效应。对于边缘掩蔽,本文首先使用Canny算子检测每个视频帧的边缘图像,然后将检测到的边缘图像和原始视频帧都送到双流ResNet进行内容依赖性特征提取。最后,采用门控循环单元(gated recurrent unit,GRU)网络和主观激励的时间池化层来计算时间记忆效应。在UHD和几个基准视频质量数据集上进行了多个实验,结果表明,本文提出的方法在SROCC (Spearman rank order correlation coefficient)和PLCC(Pearson linear correlation coefficient)指标上都优于现有方法。



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3